| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) | |
|---|---|---|---|---|---|---|---|---|---|
| \(y_i\) | 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
| \((y_i - \bar{y})^2\) | 4.93 | 38.69 | 1.49 | 95.65 | 7.73 | 27.25 | 3.17 | 60.53 | 52.13 |
| \(\sum_{i=1}^9 (y_i - \bar{y})^2\) | 291.57 |
Det här är en praktiskt användbar kurs som lär ut hur du
Det du lär dig här används bland annat av
- Läs igenom kapitlet i boken före föreläsningen.
- Om ett matematiskt uttryck ser svårt ut, börja med att försöka förstå notationen.
Exempel: För att förstå innebörden av \(\bar x = \cfrac{\sum_{i=1}^n x_i}{n}\)
måste du först förstå vad \(\bar x\) betyder, vad \(\sum_{i=1}^n x_i\) betyder och vad står \(n\) för.- Om du fastnar och inte hittar svar i boken, fråga!
- Skjut inte upp pluggandet. Börja direkt!
Deskriptiv statistik: Beskriv din data på ett meningsfullt sätt
Inferens: Dra slutsatser om världen utanför
Data är allt som vi kan observera och spara på ett eller annat sätt. Den kan vara strukturerad…
… eller ostrukturerad
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Vi är också intresserade av vad som inom statistikämnet brukar kallas metadata. Metadata är information om vårt datamaterial.
Exempel: Hur nöjd på en femgradig skala är du med ett köp?
Ett klassiskt dataset om passagerare och besättning på skeppet Titanic:
Det är svårt att få en bra överblick genom att läsa en tabell som den ovan. Vi vet det fanns 2208 personer ombord när skeppet sjönk, men hur kan vi exempelvis få en bra bild av antalet passagerare i varje klass?
Andelen i procent som tillhör grupp \(a\) räknas ut med formeln \(p_a = \cfrac{n_a}{n} \cdot 100 \%\).
Notation: \(p_a\) är andelen i procent som tillhör grupp \(a\). \(n_a\) är antalet observationer som tillhör grupp \(a\), och \(n\) är det totala antalet observationer.
Exempel: Andelen som tillhörde besättningen var \(\cfrac{889}{2208} \cdot 100 \% = 40.26 \%\)
Vi sammanfatta en variabel mer pedagogiskt med ett diagram:
Ett stapeldiagram kan vara baserat på en frekvenstabell. Staplarnas höjd anger antalet observation som tillhör en viss grupp.
Ett stapeldiagram kan också vara baserat på en relativ frekvenstabell. Staplarnas höjd anger då den andel av observationerna som tillhör en viss grupp.
Fråga: Jämför den största soptunnan med den minsta? Hur många gånger större skulle du säga att den största soptunnan är?
Stapeldiagram bryter ibland mot areaprincipen genom att y-axeln har kapats, dvs y-axeln börjar inte på noll. De nedre diagrammen visar den verkliga relationen mellan staplarna.
Stapeldiagram är för kategoriska variabler. För numeriska variabler används histogram.
Histogram ser ut ungefär som stapeldiagram, men istället för kategorier representerar staplarna intervall av numeriska värden.
Till vänster ett stapeldiagram för den kategoriska variabeln Class. Till höger ett histogram för den numeriska variabeln Age.
När du gör ett histogram väljer du själv bredden på dina intervall.
Notera att höjden på de två markerade staplarna i det vänstra histogrammet representerar ungefär 400 personer vardera. I det högra histogrammet är de båda staplarna ihopslagna, och den sammanslagna stapeln representerar då ungefär 800 personer.
Det finns också histogram som kallas täthetshistogram (density histogram). I ett sådant histogram prepresenterar arean av en stapel den andel av observationerna som ligger inom stapels intervall.
Exempel: Den högsta stapeln i figuren till höger (20-29 år) har en höjd som är ungefär 0.036. Stapelns bredd är 10, så arean är \(0.036 * 10 = 0.36\). Andelen personer på Titanic som var i åldern 20-29 år var alltså ungefär 36%.
Det finns även stam- och bladdiagram (överst till vänster), punktdiagram (överst till höger) och täthetdiagram (underst).
Täthetsdiagrammet har samma form som ett histogram, men är utjämnat.
Formen på ett histogram kan ge oss intressant information om hur värden på en variabel fördelar sig i ett dataset.
Typvärdet (mode) är det värde av en variabel som har det största antalet observationer. Det representeras av toppen av fördelningskurvan.
Symmetrin (symmetry/skewness) anger om fördelningen är symmetrisk eller sned.
Extrema värden (outliers) är observationer som ligger långt från övriga observationer.
En fördelning med två toppar är bimodal och har den fler toppar är den multimodal. Figuren till vänster, som visar ett index för levnadskostnader i olika städer, har en topp vid 40 och en vid 80. Kanske döljer sig två olika grupper av städer i datamaterialet.
En fördelning som är jämn utan tydliga toppar och dalar, som den till höger, kallas för en uniform- eller likformig fördelning.
Det gröna histogrammet är symmetriskt. Den högra halvan av histogrammet är på ett ungefär en spegelbild av den vänstra.
Det lila histogrammet, som visar hur mycket kvinnliga hjärtpatienter har fakturerats, är skevt åt höger (right skewed). Det kan tolkas som att många patienterna har fakturerats en summa högt över typvärdet, medan få har fakturerats långt under typvärdet.
Extrema värden som avviker från övriga observationer brukar kallas för outliers, även på svenska.
Det blå histogrammet nedan har inga outliers. Alla Observationer ligger samlade. Det gula histogrammet har en outlier till höger om de övriga observationerna.
Outliers kan få stora effekter i en statistisk analys.
Outliers behöver ofta utredas. De kan finnas där på grund av misstag i datainsamlingen, men de kan också vara korrekta observationer.
Om outliers tas bort ur datamaterialet måste detta dokumenteras och motiveras.
Anta att vi har 7 observationer av en variabel som vi kallar \(x\):
\[x_1=12, x_2=11, x_3=9, x_4=13, x_5=12, x_6=10, x_7=11\]
Medelvärdet av de här observationerna är
\[\cfrac{12+11+9+13+12+10+11}{7} = 11.14\]
Mer allmänt kan vi säga att medelvärdet beräknas
\[\bar x = \cfrac{\sum_{i=1}^n x_i}{n}\]
Låt oss förklara notationen i uttrycket
\[\bar x = \cfrac{\sum_{i=1}^n x_i}{n},\]
\[\sum_{i=1}^n x_i = x_1+x_2+x_3+...+x_n\]
Medianen är ett värde som är större än ungefär hälften av observationerna och mindre än ungefär hälften av observationerna. Att vi säger ungefär beror på att antalet observationer inte alltid är jämnt delbart med 2.
Figuren visar åldersfördelningen för Titanics besättning. Anta att de blå staplarna i figuren representerar lika många personer som staplarna i beige. Antalet besättningsmän på Titanic som är under 30 år är då lika stort som antalet över 30 år. Medianåldern är alltså omkring 30 år.
Vi hittar medianen på följande sätt:
Exempel med udda antal observationer
Vi har variabeln \(x\) med följande 5 värden:
| x | ||||
|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 |
Vi börjar med att sortera våra värden i storleksordning.
| x | ||||
|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 |
Värdet i mitten av den sorterade listan är 3.09, så medianen är 3.09.
Exempel med jämnt antal observationer
Vi har variabeln \(x\) med följande 6 värden:
| x | |||||
|---|---|---|---|---|---|
| 14.7 | 2.2 | 1.7 | 3.09 | 3.11 | 16.3 |
Vi börjar med att sortera våra värden i storleksordning.
| x | |||||
|---|---|---|---|---|---|
| 1.7 | 2.2 | 3.09 | 3.11 | 14.7 | 16.3 |
De två värden som ligger i mitten av listan är 3.09 och 3.11. Medelvärdet av dessa värden är \((3.09-3.11)/2=3.10\). Medianen är alltså 3.10.
Det finns olika mått på hur stor spridningen är:
Exempel
Bland Titanics besättningsmän var den äldsta 62 år och den yngsta 14. Variationsbredden för den åldersvariabeln är alltså \(62 − 14 = 48\).
Standardavvikelsen anger hur mycket observationerna avviker från medelvärdet.
För att räkna ut standardavvikelsen är det lättast att först räkna ut variansen, som vi betecknar \(s^2\). Variansen, som är standardavvikelsen i kvadrat, räknas ut med formeln
\[s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1},\] där \(n\) är antalet observationer.
Standardavvikelsen, som vi betecknar \(s\), är kvadratroten ur variansen:
\[s = \sqrt{s^2}\]
Låt oss förklara notationen
\[s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1}.\]
\[\sum_{i=1}^n(y_i - \bar{y})^2 = (y_1 - \bar y)^2 + (y_2 - \bar y)^2 + ... + (y_n - \bar y)^2,\] där \(y_n\) är vår sista observation. För att kunna göra uträkningen måste vi först ha räknat ut medelvärdet \(\bar y\).
Anta att vi har nio säckar med jord, och som ett mått på hur mycket vikten skiljer sig åt mellan säckarna vill vi räkna ut standardavvikelsen.
Variabeln \(y\) på första raden i nedanstående tabell anger vikten på varje säck i kg. Medelvikten är \(\bar{y}=(23+27+22+11+18+26+19+13+28)/9 = 20.78\) kg.
På andra raden i tabellen räknar vi ut \((y_i - \bar{y})^2\) för varje observation. För \(y_1\) får vi till exempel \((23-20.78)^2=4.93\). För \(y_2\) får vi \((27-20.78)^2=38.69\).
På tredje raden räknar vi ut summan av alla värden från andra raden. \(\sum_{i=1}^9 (y_i - \bar{y})^2 = 4.93+38.69+1.49+95.65+7.73+27.25+3.17+60.53+52.13=291.57\)
| \(y_1\) | \(y_2\) | \(y_3\) | \(y_4\) | \(y_5\) | \(y_6\) | \(y_7\) | \(y_8\) | \(y_9\) | |
|---|---|---|---|---|---|---|---|---|---|
| \(y_i\) | 23 | 27 | 22 | 11 | 18 | 26 | 19 | 13 | 28 |
| \((y_i - \bar{y})^2\) | 4.93 | 38.69 | 1.49 | 95.65 | 7.73 | 27.25 | 3.17 | 60.53 | 52.13 |
| \(\sum_{i=1}^9 (y_i - \bar{y})^2\) | 291.57 |
Vi har räknat ut att \(\sum_{i=1}^9 (y_i - \bar{y})^2 = 291.57\), och vi vet att antalet observationer är \(n=9\). Om vi sätter in våra värden i formeln får vi
\[s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} = \cfrac{291.57}{9-1} = 36.446\] Genom att ta kvadratroten ur variansen får vi standardavvikelsen:
\[s = \sqrt{s^2} = \sqrt{36.446} = 6.037\]
Vi har räknat ut att standardavvikelsen för vikten på jordsäckarna är 6.037 kg.
Det finns ingen entydig regel för hur kvartilerna räknas ut. I De Veaux et al(2021) föreslås följande metod:
Kvartilavståndet (Interquartile range) kan räkas ut som avståndet mellan Q3 och Q1.
\[\text{IQR} = \text{Q3} - \text{Q1}\] För fördelningen nedan kan IQR beräknas
\[\text{IQR} = \text{Q3} - \text{Q1} = 51-26.5=24.5\]
Om spridningen i en fördelning bäst rapporteras i form av standardavvikelse eller i form av IQR beror på syftet.
Standardavvikelsen är bättre om det är viktigt att alla observationer beaktas.
IQR är bättre om vi vill ha ett mått som inte påverkas av outliers.
Standardavvikelse brukar rapporteras tillsammans med medelvärdet och IQR tillsammans med medianen.
För att kunna använda den här funktionen måste du först ha läst in datasetet för Titanic. Dessutom måste du ha installerat paketet mosaic.
#Make a pie chart of the variable class
class_table <- tally(~Class, data=titanic)
pie(x=class_table, main="Classes on the Titanic")Det här kommandot ger oss ett density histogram.
Genom att sätta type=“count” får vi ett histogram med frekvenser.
Funktionen favstats i mosaic ger oss flera mått som kan användas för att visa centrum och spridning i en fördelning.
Längt till höger ser vi att missing har värdet tre. Det betyder att tre av observationerna saknar värden för variabeln Age.
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson för HT 2025.
Dataanalys och Regression 7.5 hp